基于骨架的人类行动识别是由于其复杂的动态而是一项长期挑战。动态的一些细颗粒细节在分类中起着至关重要的作用。现有的工作主要集中在设计带有更复杂的相邻矩阵的增量神经网络上,以捕获关节关系的细节。但是,他们仍然很难区分具有广泛相似运动模式但属于不同类别的动作。有趣的是,我们发现运动模式上的细微差异可以显着放大,并且可以轻松地通过指定的视图方向来区分观众,在这些方向上,该属性以前从未得到充分探索。与以前的工作截然不同,我们通过提出一种概念上简单而有效的多视图策略来提高性能,该策略从一系列动态视图功能中识别动作。具体而言,我们设计了一个新颖的骨骼锚定建议(SAP)模块,该模块包含一个多头结构来学习一组视图。为了学习不同观点的特征学习,我们引入了一个新的角度表示,以在不同视图下的动作转换并将转换归因于基线模型。我们的模块可以与现有的动作分类模型无缝合作。与基线模型合并,我们的SAP模块在许多具有挑战性的基准上展示了明显的性能增长。此外,全面的实验表明,我们的模型始终击败了最新的实验,并且在处理损坏的数据时保持有效和健壮。相关代码将在https://github.com/ideal-idea/sap上提供。
translated by 谷歌翻译
营销活动是一系列战略活动,可以促进企业的目标。在真正的工业场景中,营销活动的效果预测非常复杂且具有挑战性,因为通常从观察数据中学到了先验知识,而没有任何营销活动干预。此外,每个主题始终在几个营销活动的干预下同时受到干扰。因此,我们无法轻松解析和评估单个营销活动的效果。据我们所知,目前尚无有效的方法来解决此类问题,即,基于具有多个相互缠绕事件的层次结构对个体级别的预测任务进行建模。在本文中,我们对效果预测任务中涉及的基础解析树的结构进行了深入的分析,并进一步建立了一个层次结构胶囊预测网络(HAPNET)来预测营销活动的影响。基于合成数据和实际数据的广泛结果证明了我们模型比最新方法的优越性,并在实际工业应用中表现出显着的实用性。
translated by 谷歌翻译
关于无监督的域适应性(UDA)的广泛研究已将有限的实验数据集深入学习到现实世界中无约束的领域。大多数UDA接近通用嵌入空间中的对齐功能,并将共享分类器应用于目标预测。但是,由于当域差异很大时可能不存在完全排列的特征空间,因此这些方法受到了两个局限性。首先,由于缺乏目标标签监督,强制域的比对会恶化目标域的可区分性。其次,源监督分类器不可避免地偏向源数据,因此它在目标域中的表现可能不佳。为了减轻这些问题,我们建议在两个集中在不同领域的空间中同时进行特征对齐,并为每个空间创建一个针对该域的面向域的分类器。具体而言,我们设计了一个面向域的变压器(DOT),该变压器(DOT)具有两个单独的分类令牌,以学习不同的面向域的表示形式和两个分类器,以保持域的可区分性。理论保证的基于对比度的对齐和源指导的伪标签细化策略被用来探索域名和特定信息。全面的实验验证了我们的方法在几个基准上实现了最先进的方法。
translated by 谷歌翻译
无监督的域适应(UDA)旨在将知识从标记的源域传输到未标记的目标域。大多数现有的UDA方法通过学习域 - 不变的表示和在两个域中共享一个分类器来实现知识传输。但是,忽略与任务相关的域特定信息,并强制统一的分类器以适合两个域将限制每个域中的特征表达性。在本文中,通过观察到具有可比参数的变压器架构可以产生比CNN对应的更可转换的表示,我们提出了一个双赢的变压器框架(WINTR),它分别探讨了每个域的特定于域的知识,而同时交互式跨域知识。具体而言,我们使用变压器中的两个单独的分类令牌学习两个不同的映射,以及每个特定于域的分类器的设计。跨域知识通过源引导标签改进和与源或目标的单侧特征对齐传输,这保持了特定于域的信息的完整性。三个基准数据集的广泛实验表明,我们的方法优于最先进的UDA方法,验证利用域特定和不变性的有效性
translated by 谷歌翻译
在视觉上丰富的文件(VRD)上的结构化文本理解是文档智能的重要组成部分。由于VRD中的内容和布局的复杂性,结构化文本理解是一项有挑战性的任务。大多数现有的研究将此问题与两个子任务结尾:实体标记和实体链接,这需要整体地了解令牌和段级别的文档的上下文。但是,很少的工作已经关注有效地从不同层次提取结构化数据的解决方案。本文提出了一个名为structext的统一框架,它对于处理两个子任务是灵活的,有效的。具体地,基于变压器,我们引入了一个段令牌对齐的编码器,以处理不同粒度水平的实体标记和实体链接任务。此外,我们设计了一种具有三个自我监督任务的新型预训练策略,以学习更丰富的代表性。 Structext使用现有屏蔽的视觉语言建模任务和新句子长度预测和配对框方向任务,以跨文本,图像和布局结合多模态信息。我们评估我们在分段级别和令牌级别的结构化文本理解的方法,并表明它优于最先进的同行,在Funsd,Srie和Ephoie数据集中具有显着优越的性能。
translated by 谷歌翻译
迭代线性二次调节器(ILQR)在解决非线性系统模型的轨迹优化问题方面已广泛普及。但是,作为一种基于模型的拍摄方法,它在很大程度上依赖于准确的系统模型来更新最佳控制动作和通过正向集成确定的轨迹,从而变得容易受到不可避免的模型的影响。最近,针对最佳控制问题的基于学习的方法进行的大量研究工作在解决未知系统模型方面已经取得了显着发展,尤其是当系统与环境具有复杂的相互作用时。然而,通常需要一个深层的神经网络来拟合大量的采样数据。在这项工作中,我们提出了神经-ILQR,这是一种在不受约束的控制空间上进行学习的拍摄方法,其中使用简单结构的神经网络代表局部系统模型。在此框架中,通过同时完善最佳策略和神经网络迭代,可以实现轨迹优化任务,而无需依靠系统模型的先验知识。通过对两项说明性控制任务的全面评估,在系统模型中存在不准确性的情况下,提出的方法显示出胜过常规ILQR。
translated by 谷歌翻译
Large deep learning models have achieved remarkable success in many scenarios. However, training large models is usually challenging, e.g., due to the high computational cost, the unstable and painfully slow optimization procedure, and the vulnerability to overfitting. To alleviate these problems, this work studies a divide-and-conquer strategy, i.e., dividing a large model into smaller modules, training them independently, and reassembling the trained modules to obtain the target model. This approach is promising since it avoids directly training large models from scratch. Nevertheless, implementing this idea is non-trivial, as it is difficult to ensure the compatibility of the independently trained modules. In this paper, we present an elegant solution to address this issue, i.e., we introduce a global, shared meta model to implicitly link all the modules together. This enables us to train highly compatible modules that collaborate effectively when they are assembled together. We further propose a module incubation mechanism that enables the meta model to be designed as an extremely shallow network. As a result, the additional overhead introduced by the meta model is minimalized. Though conceptually simple, our method significantly outperforms end-to-end (E2E) training in terms of both final accuracy and training efficiency. For example, on top of ViT-Huge, it improves the accuracy by 2.7% compared to the E2E baseline on ImageNet-1K, while saving the training cost by 43% in the meantime. Code is available at https://github.com/LeapLabTHU/Model-Assembling.
translated by 谷歌翻译
Metric-based meta-learning is one of the de facto standards in few-shot learning. It composes of representation learning and metrics calculation designs. Previous works construct class representations in different ways, varying from mean output embedding to covariance and distributions. However, using embeddings in space lacks expressivity and cannot capture class information robustly, while statistical complex modeling poses difficulty to metric designs. In this work, we use tensor fields (``areas'') to model classes from the geometrical perspective for few-shot learning. We present a simple and effective method, dubbed hypersphere prototypes (HyperProto), where class information is represented by hyperspheres with dynamic sizes with two sets of learnable parameters: the hypersphere's center and the radius. Extending from points to areas, hyperspheres are much more expressive than embeddings. Moreover, it is more convenient to perform metric-based classification with hypersphere prototypes than statistical modeling, as we only need to calculate the distance from a data point to the surface of the hypersphere. Following this idea, we also develop two variants of prototypes under other measurements. Extensive experiments and analysis on few-shot learning tasks across NLP and CV and comparison with 20+ competitive baselines demonstrate the effectiveness of our approach.
translated by 谷歌翻译
最近的研究表明,减少时间和空间冗余都是有效的视频识别方法的有效方法,例如,将大多数计算分配给与任务相关的框架或每个帧中最有价值的图像区域。但是,在大多数现有的作品中,任何一种类型的冗余通常都是用另一个缺失建模的。本文探讨了在最近提出的ADAFOCUSV2算法之上的时空动态计算的统一配方,从而有助于改进的ADAFOCUSV3框架。我们的方法仅在一些小但有益的3D视频立方体上激活昂贵的高容量网络来降低计算成本。这些立方体是从框架高度,宽度和视频持续时间形成的空间中裁剪的,而它们的位置则以每样本样本为基础的轻加权政策网络自适应地确定。在测试时间,与每个视频相对应的立方体的数量是动态配置的,即,对视频立方体进行顺序处理,直到产生足够可靠的预测为止。值得注意的是,可以通过近似可插入深度特征的插值来有效地训练adafocusv3。六个基准数据集(即ActivityNet,FCVID,Mini-Kinetics,Something Something V1&V2和潜水48)上的广泛经验结果表明,我们的模型比竞争性基线要高得多。
translated by 谷歌翻译
尽管条件变异自动编码器(CVAE)模型比传统的SEQ2SEQ模型可以产生更多的多样化响应,但响应通常与输入词的相关性低或与问题不合逻辑。进行因果分析以研究背后的原因,并提供了一种寻找调解人并减轻对话中混杂偏见的方法。具体而言,我们建议预测调解人,以保留相关信息,并自动将调解人纳入生成过程中。此外,动态主题图指导条件变异自动编码器(TGG-CVAE)模型用于补充语义空间并减少响应中的混杂偏置。广泛的实验表明,所提出的模型能够产生相关和信息性的响应,并且在自动指标和人类评估方面优于最先进的响应。
translated by 谷歌翻译